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基于 IIPC 开源 软件 拓展 构建 国际 重要 科研 
机 构 Web 存档 系统 


吴 振 新 ” 张 智 雄 谢 靖 胡 吉 频 

(中 国 科学 院 文献 情报 中 心 ” 北 京 100190) 

摘要 : 【目的 】 构建 国际 重要 科研 机 构 Web 存档 系统 。[ 方法 】 基 于 IIPC 开源 软件 拓展 采集 存档 框架 , 在 采集 
端 采用 三 层 扩 展 策略 , 在 采集 客户 端 增加 自动 上 传 及 报告 等 管理 功能 , 开发 WARC 文 件 内 容 解 析 模 块 ,利用 Solr 
进行 索引 。[ 结果 ]】 在 采集 端 实现 三 层 扩展 , 通过 增加 采集 客户 端 功 能 提高 存档 流程 自动 化 程度 ,通过 增加 的 
WARC 文件 内 容 解析 功能 抽取 更 多 信息 ,实现 索引 及 检索 服务 的 扩展 。[ 局 限 ] 没有 使 用 大 规模 采集 存档 进行 检 
验 。[ 结论 】 扩展 后 的 采集 存档 框架 初步 具备 分 布 式 、 可 扩展 、 全 自动 化 的 特点 。 

关键 词 : 开源 软件 ”网 络 信息 存档 ”系统 建设 

分 类 号 : G352 


1 引 言 作为 国家 级 的 保存 机 构 ， 充 分 意识 到 网 络 信息 保存 的 
大 省 rh VA 乡 Ni 落得 
互联 网 资源 被 视 为 文化 浪 产 的 一 部 分 ,受到 许多 。 “在 2006 各 天 多 闫 主人 和 
国家 立法 认可 。 网 络 存档 是 对 Web 上 的 信息 资源 进行 Ee sn A i id 
收集 、 保 存 并 确保 这 些 资 源 能 够 被 长 期 使 用 的 一 系列 。 “> 下 下 全 人 生生 
持续 活动 ,为 持久 、 有 效 地 保存 互联 网 资源 提供 了 可 Web 存档 。 本 文 主要 介绍 在 存档 实践 中 如 何 基于 IPC 
Archive 的 研究 和 实践 。 人 
在 科技 领域 大 量 的 科技 信息 资源 被 发 布 在 网 络 2 ”IIPC 基本 采集 存档 框架 及 应 用 分 析 
上 , 近 几 年 国际 网 络 存档 的 焦点 已 经 逐渐 转移 到 对 重 
要 科技 网 络 专题 信息 及 科技 机 构 网 站 的 保存 。2012 年 建 于 2003 年 的 国际 互联 网 保存 联盟 (International 
11 月 美国 国家 数字 信息 基础 设施 保存 计划 (NDIIPP) 发 Internet Preservation Consortium, IIPC)P)， 目前 已 拥有 
布 《 处 于 危险 中 的 科学 : 构建 在 线 科学 内 容 保存 的 国 ”超过 40 个 成 员 机 构 , 涵盖 来 自 世 界 各 地 的 主要 图 书 
家 战略 报告 , 明确 将 在 线 科学 内 容 保存 提升 成 为 美 。 馆 、 档 案 馆 、 大 学 、 非 营利 组 织 以 及 商业 服务 供应 商 ， 


天 


国 国家 战略 。 在 世界 范围 极 大 地 促进 了 各 国 合作 和 交流 共享 。 
在 这 样 的 时 代 背 景 下 ,重要 网 络 科技 信息 资源 已 IIPC 资助 开发 的 用 于 网 站 六 选 、 收 制 和 保存 的 各 


经 成 为 科技 信息 资源 建设 体系 中 一 种 非常 重要 的 开放 ”种 网 络 存档 工具 中 已 经 在 全 球 得 到 了 广泛 部 署 和 使 用 ， 
资源 ,这些 资源 的 保存 也 成 为 科技 战略 资源 保障 工作 ”国内 也 有 文章 对 此 进行 介绍 。 目 前 使 用 范围 最 广 的 
中 的 一 个 重要 组 成 部 分 。 中 国 科学 院 文献 情报 中 心 ” 是 覆盖 了 网 络 资源 采集 基本 流程 的 4 个 工具 包 和 已 经 
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成 为 国际 标准 的 网 络 存 档 格式 WARC, 笔者 将 其 归纳 


如 图 1 所 示 : 


Heritrix 
(采集 


NutchWAX 


(URL 索 引 ) (全 文 索引 ) 


Wayback | 
(发 布 ) 


图 1 IIPC 基本 采集 存档 框架 


| Wayback ] 


(1) WARC6G: 即 ISO 28500, Web 采集 资源 存档 格 
式 标 准 。 

(2) Heritrixiq: 由 Internet Archivel 牵 头 开 发 的 、 
具有 高 度 可 扩展 性 的 开源 Web 网 络 怜 虫 。 

(3) Web Curator Tool(WCT)DI: 选择 性 网 络 采集 过 
程控 制 及 管理 工具 。 

(4) Wayback5l: 提供 基于 URL 的 检索 及 访问 的 存 
档 资源 访问 软件 。 

(5) NutchWAX09: Web Archive 全 文 索引 工具 。 
内 由 于 Web Archive 项 目 开 展 有 限 , 鲜 有 利用 
这 些 开 源 工具 进行 大 规模 采集 、 存 档 、 服 务 的 案例 ， 
目前 只 有 国家 图 书馆 率先 利用 该 框架 中部 团 了 实验 
系统 并 开展 了 多 年 的 存档 , 为 了 解决 运 维 的 效率 问 
题 , 在 整个 框架 上 增加 了 管理 层 , 但 依旧 有 许多 环 
厄 、 功 能 申 待 扩展 和 完善 , 这些 已 经 列 在 他 们 的 发 展 
规划 中 。 国 内 还 有 一 些 针 对 Heritrix 的 研究 ， 主 要 涉 
及 扩展 其 核心 的 5 个 模块 , 分 别 实现 抓 取 特定 网 站 内 
容 、 调整 采集 策略 提高 抓 取 效 率 、 对 其 进行 改造 实现 
增 量 式 网 络 候 取 等 ,多 为 研究 性 论文 , 缺少 实用 性 系 
统 的 案例 。 

IIPC 联盟 成 员 对 其 开源 工具 的 应 用 非常 广泛 , 也 
有 多 家 机 构 开 展 了 合作 存档 项 目 52， 但 对 于 分 布 式 采 
集 管 理 缺 乏 高 效 的 开源 管理 软件 ,负责 WCT 开发 的 
英国 国家 图 书馆 ， 自 行 研发 了 一 套 蔡 代 WCT 的 平台 
来 管理 Heritrix 进行 分 布 式 采 集 ， 同 时 他 们 放弃 了 
NutchWAX, 改 用 Solr 对 存档 进行 索引 , 法 国 国家 图 
书馆 的 Web Archive 项 目 也 采用 了 类 似 的 方案 。 


现代 图 书 情报 技术 


3 NSL-WebArchive 应 用 存档 框架 的 个 性 化 
需求 分 析 


虽然 IPC 的 采集 框架 在 全 球 得 到 了 广泛 应 用 , 但 
在 实际 的 存档 活动 中 , 还 需要 结合 个 性 化 需求 予以 不 
同 程度 的 个 性 化 改造 应 用 。 

NSL-WebArchive 需要 周期 性 地 采集 大 量 的 科技 
网 站 资源 ,还 要 遵循 网 络 礼仪 ,以 较 低 的 频率 和 速度 
进行 采集 ,这 样 就 存在 大 量 资源 的 采集 周期 与 采集 速 
度 之 间 的 矛盾 。 同时 大 量 的 资源 需要 消耗 大 量 的 人 力 ， 
那么 自动 化 的 需求 随 之 提高 。 由 于 存档 内 容 还 需要 进 
一 步 深度 挖掘 以 提供 分 析 服 务 ， 因 此 自然 而 然 产生 了 
大 规模 、 分 布 式 、 自 动 化 的 采集 及 深度 处 理 的 个 性 化 
需求 。 在 采用 IIPC 采集 框架 作为 基础 构建 采集 存档 系 
统 时 , 需要 就 这 些 个 性 化 需求 予以 深入 考虑 ,提出 有 
效 解 决 方案 。 

(1) 采集 框架 的 平行 扩展 

NSL-WebArchive 的 采集 目标 为 相对 固定 和 明确 
的 网 站 群 , 需要 对 目标 网 站 进行 全 域 采 集 ， 因 此 可 以 
使 用 轻 量 级 爬虫 提高 任务 运行 效率 并 减轻 采集 服务 器 
和 被 检测 站 点 服务 器 的 运行 负担 。 

由 于 需要 科技 机 构 网 站 相对 数量 较 多 , 还 要 遵循 
网 络 礼仪 ， 以 较 低 的 频率 和 速度 进行 采集 ， 因 此 ， 要 
在 指定 时 间 内 完成 大 量 采集 任务 , 就 需要 部 署 大 量 的 
采集 节点 实施 低频 低速 的 分 布 式 采集 。 同 时 , 采集 节 
点 数量 还 应 该 能 够 根据 任务 需要 进行 扩充 、 收 缩 和 动 
态 调配 。 这 就 需要 一 个 易于 管理 的 采集 端 扩展 策略 ， 
同时 还 需 考 虑 在 低频 低速 的 采集 模式 下 充分 发 挥 服 务 
器 硬件 的 使 用 效率 。 

(2) 高 效 的 分 布 式 采集 存档 管理 方案 

NSL-WebArchive 分 布 式 采集 框架 需要 部 署 多 个 
Heritrix 采集 实例 以 低频 低速 的 采集 模式 完成 大 量 采 
集 任务 , 高 效 的 分 布 式 管理 系统 是 采集 存档 平台 必 不 
可 少 的 部 分 。 

作为 采集 管理 平台 的 WCT, 目前 只 能 管理 一 个 
Heritrix 实例 , 不 能 同时 管理 多 个 Heritrix 实例 。 如 果 
采集 端 不 断 扩展 ， 即 意味 着 部 署 多 个 Heritrix 实例 ， 而 
WCT 却 无 法 进行 统一 管理 调度 ,这 就 引发 了 平行 扩 
展 后 的 采集 管理 问题 , 需要 构建 统一 平台 对 分 布 式 的 
采集 节点 实施 采集 以 及 存档 任务 的 部 署 、 管 理 。 


另外 如 果 部 署 多 个 Heritrix 实例 ,每 个 实例 的 采 
集 配 置 文档 和 产生 的 存档 文件 都 需要 修改 缺 省 的 命名 
规范 以 避免 混淆 , 便于 在 统一 管理 时 存档 人 员 有 效 识 
别 和 管理 这 些 文档 。 在 考虑 文档 命名 规则 时 要 考虑 采 
集 文 档 来 自 不 同 的 采集 器 ,， 这些 采集 器 部 署 在 不 同 的 
服务 器 上 , 而 且 同 一 资源 需要 多 次 采集 ， 这些 信息 都 
应 予以 有 效 记 录 。 

(3) 高 度 的 自动 化 流程 

NSL-WebArchive 需要 周期 性 地 进行 大 量 网 站 的 
采集 , 因此 要 求 整个 采集 存档 流程 的 自动 化 程度 要 大 
幅度 提高 。 

QD 大量 采集 任务 的 配置 、 管 理 、 周 期 性 运行 调度 以 及 质 
量 检验 , 这 意味 着 需要 大 量 的 人 工 参与 , 需要 实现 采集 任务 
管理 的 自动 化 。 

(OHeritrix 采 集 的 数据 只 能 在 本 地 指定 的 目录 进行 存 
储 、 管 理 , 不 能 直接 存放 到 远程 存储 目录 ,而 分 布 式 采 集 框 
架 需 要 部 署 多 个 分 布 式 的 采集 器 ,这 就 需要 考虑 平行 部 署 
多 个 采集 实例 后 的 资源 收集 问题 。 

@Wayback 目 前 只 能 对 指定 的 本 地 数据 目录 进行 自动 
索引 和 提供 浏览 访问 服务 , 无 法 同时 为 不 同 Heritrix 实 例 采 
集 的 数据 提供 自动 索引 和 浏览 访问 服务 ,即使 在 同一 服务 
器 上 的 多 个 Heritrix 实 例 ， 由 于 各 自 存档 目录 不 同 ， 在 人 工 
归并 之 前 , Wayback 也 无 法 为 它们 进行 自动 索引 。 

四 目前 NutchWAX 需 要 将 WARC 放 到 Hadoop 的 文件 
系统 中 进行 全 文 索引 ， 不 能 进行 本 地 上 索引， 因此 需要 将 不 
同 Heritrix 实 例 采 集 的 数据 统一 集中 到 Hadoop 中 进行 索 
引 ， 索 引 后 再 将 索引 文件 移 回 到 Wayback 目 录 下 才能 使 
用 。 这 也 是 流程 自动 化 需要 考虑 的 一 个 问题 。 

(4) 丰富 的 内 容 与 服务 方式 

由 于 国际 重要 科技 网 站 资源 存档 是 面向 学 科 的 国 
际 重 要 科技 机 构 网 络 资源 保存 ,资源 保存 之 后 更 为 重 
要 的 是 为 用 户 提 供 基于 内 容 的 深度 挖掘 和 分 析 服 务 ， 
因此 系统 不 但 要 有 基本 的 网 站 URL 的 检索 和 浏览 功 
能 , 还 要 有 多 角度 多 层次 的 内 容 提 供 、 内 容 分 析 服 务 
的 能 

NSL-WebArchive 需要 考虑 存档 内 容 信息 的 抽取 ， 
增加 索引 维度 ,提供 包括 学 科 、 时 间 、 站 点 在 内 的 分 
面 浏览 和 全 文 检索 , 解决 目前 存档 内 容 索 引 不 足 和 访 
问 服务 单一 的 问题 。 

Wayback 只 提供 基于 URL 的 索引 和 检索 ， 而 按照 
用 户 的 使 用 习惯 和 需求 ,， 这样 单一 的 功能 是 远 远 不 够 
的 。 如 上 文 所 述 ,目前 提供 全 文 索 引 的 NutchWAX 需 
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要 将 WARC 文件 和 索引 文件 在 Heritrix、Hadoop、 
Wayback 之 间 往 返 移动 , 同时 实践 中 发 现 它 在 性 能 
存在 一 定 的 问题 ,对 硬件 有 较 高 的 要 求 。 


4 NSL-WebArchive 平台 的 关键 问题 解决 

方案 

基于 上 述 个 性 化 需求 分 析 , 笔者 提出 基于 IIPC 采 
集 存档 框架 的 构建 思路 : 

(1) 提供 一 个 面向 大 规模 采集 的 可 扩展 的 系统 框 
架 , 从 多 层面 实现 系统 的 可 扩展 性 。 

(2) 将 相关 工具 作为 框架 中 的 组 件 纳入 ,不 改变 
开源 工具 本 身 的 功能 。 

(3) 通过 中 心 管理 端 和 客户 采集 端的 模式 , 实现 
分 布 式 采集 存储 ,支持 多 节点 协同 工作 ,并 充分 利用 
硬件 与 网 络 完成 采集 任务 。 

(4) 完善 客户 端 管理 软件 功能 ,提高 采集 流程 的 
自动 化 程度 。 

这 样 既 可 快速 实现 采集 系统 平台 ,还 能 够 充分 利 
用 原 有 工具 的 优点 , 同时 具有 更 好 的 兼容 性 ,可 实现 
无 颖 升级, 尽 享 开源 工具 的 优势 。 
4.1 分布 式 Web 存档 框架 整体 方案 

NSL-WebArchive 设计 了 中 心 管理 端 和 客户 采集 
端的 模式 以 实现 分 布 式 框架 , 如 图 2 所 示 。 框 架 主要 
由 三 种 类 型 节点 组 成 : 管理 节点 、 采 集 节 点 和 存储 ( 索 
引 访问 ) 节 点 。 

(1) 管理 节点 

采集 管理 平台 负责 完成 种 子 站 点 采集 配置 和 管 
理 ， 同 时 还 负责 采集 任务 生成 和 采集 任务 队列 的 管理 ， 
提供 查询 各 采集 任务 的 执行 情况 。 

(2) 采集 节点 

每 一 个 采集 节点 都 部 署 了 一 个 客户 端 ， 


出 


个 客户 


务 , 从 管理 数据 库 中 取得 相关 信息 生成 Heritrix 所 需 
的 相关 文档 , 并 依据 任务 要 求 调度 Heritrix 对 Internet 
上 指定 站 点 进行 采集 , 将 采集 结果 以 WARC 格式 进行 
存储 。 在 采集 任务 结束 后 ， 以 FTP 方式 将 完整 的 
WARC 文件 传输 到 存储 节点 的 指定 目录 中 , 将 任务 完 
成 情况 存 人 管理 数据 库 供 采集 管理 平台 查询 使 用 。 
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图 2 分 布 式 设计 框架 


(3) 存储 (索引 访问 ) 节 点 

存储 节点 除了 存储 从 采集 节点 推送 过 来 的 WARC 
文件 ,还 要 部 署 Wayback 和 存档 内 容 抽 取 模 块 以 及 
索引 辅助 工具 ,提供 对 存档 资源 的 索引 和 访问 的 
功能 。 


4.2 ”基于 Heritrix 的 分 布 式 采集 扩展 框架 

NSL-WebArchive 需要 一 个 面向 大 规模 采集 的 分 
布 式 、 自 动 化 的 采集 方案 , 为 了 实现 这 个 目标 , 笔者 提 
出 一 个 三 层 扩展 策略 以 提高 NSL-WebArchive 采集 系 
统 的 可 伸缩 性 ， 如 图 3 所 示 : 
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图 3 基于 Heritrix 的 分 布 式 采集 扩展 框架 


(1) 采集 服务 器 的 水 平 扩展 。 即 最 简单 的 方法 , 增 
加 采集 服务 器 。 

(2) 采集 节点 的 水 平 扩展 。 在 不 影响 采集 效率 的 
情况 下 ， 同 一 采集 服务 器 上 部 署 多 个 采集 节点 ， 即 部 
署 多 个 Heritrix。 

(3) 采集 线程 的 水 平 扩展 。 利用 Heritrix 多 线程 的 特 
点 , 改变 队列 算法 , 同时 启动 多 个 线程 采集 多 个 站 点 。 
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原理 上 , 三 层 扩展 策略 是 简单 的 平行 扩展 策略 ， 实 
施 层面 则 需要 综合 考量 多 种 因素 才能 确定 具体 指标 ， 
如 平衡 每 个 采集 器 采集 的 种 子 站 点 体 量 、 次 均 采 集 速 
度 、 完 成 时 间 , 并 多 次 测试 观察 每 台 服务 器 硬件 使 用 效 
率 , 确认 合适 的 采集 器 部 署 数 量 和 实施 采集 的 线程 数 。 
4.3 ”分 布 式 Web 存档 系统 的 基本 流程 

分 布 式 Web 存档 系统 的 基本 流程 如 图 4 所 示 。 
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图 4 分 布 式 内 容 采 集 系 统 的 基本 流程 


存档 人 员 在 采集 管理 平台 上 配置 管理 种 子 站 点 ， 
管理 平台 按照 配置 自动 将 采集 任务 适时 加 入 任务 队列 。 

采集 节点 的 客户 端 程序 监控 Heritrix 的 状态 , 主 
动 到 采集 管理 平台 的 任务 队列 中 接收 任务 。 调 用 
Heritrix 进行 网 页 内 容 的 采集 , 采集 结果 以 WARC 格 
式 存储 。 当 每 一 个 采集 任务 结束 后 , 采集 客户 端 自动 
将 生成 的 WARC 文件 通过 FTP 传送 到 指定 的 存储 节 
点 目录 下 按 年 月 进行 分 类 存储 。 当 上 传 成 功 后 , 采集 
客户 端 有 删除 本 地 的 WARC 文件 。Heritrix 对 每 次 任务 
都 会 生成 一 系列 报表 ,记录 此 次 网 页 采集 情况 ， 当 采 
集 任务 结束 后 , 采集 客户 端 从 Heritrix 的 报表 中 提取 
出 此 次 采集 完成 情况 的 一 些 关键 参数 存 人 管理 数据 
库 , 供 管理 端 查 看 站 点 采集 的 历史 记录 。 

部 署 在 存储 节点 的 Wayback 会 自动 对 指定 目录 进 
行 检查 ,对 监测 到 的 新 存 人 的 WARC 文件 进行 URL 
索引 ,索引 完成 后 用 户 就 可 以 通过 Wayback 对 存档 资 
源 进行 基于 时 间 轴 的 访问 。 
4.4 采集 节点 主动 模式 

采集 框架 通过 部 署 一 个 中 心 管理 服务 器 和 多 个 客 
户 端 采集 服务 器 实现 分 布 式 采集 ,其 最 大 的 亮点 则 是 
采集 节点 的 主动 工作 模式 。 该 模式 原理 如 图 5 所 示 。 
部 署 在 采集 节点 的 客户 端 采用 RMItM" 远程 调用 方式 ， 
在 采集 管理 平台 与 采集 节点 之 间 建 立 安全 稳定 的 通信 
管道 , 主动 获取 采集 任务 并 上 报 采集 状态 , 使 得 采集 
管理 平台 不 需要 轮 询 众 多 的 采集 节点 ,可 以 有 效 地 减 
少 采集 机 器 故障 对 整体 采集 系统 造成 的 影响 。 当 一 台 
采集 节点 计算 机 出 现 故障 时 ,该 节点 将 停止 向 服务 器 


申请 新 的 采集 任务 , 该 节点 的 采集 任务 均匀 分 派 到 其 
他 的 采集 节点 上 。 虽 然 会 降低 采集 效率 , 但 不 会 造成 
对 目标 站 点 采集 失败 的 情况 出 现 , 可 以 保障 数据 采集 
的 时 效 性 和 准确 性 。 


申请 采集 任务 
一 


返回 采集 任务 
-本 一 一 


状态 汇报 


! 改 稀 


采集 数据 


图 5 采集 节点 与 采集 管理 平台 的 通信 模式 


采集 信 令 是 中 心 管理 服务 器 向 采集 节点 发 送信 


息 的 标准 指令 , 包含 完整 的 采集 任务 描述 。 在 一 次 通 
信 中 , 采集 节点 从 中 心 管理 服务 器 领取 最 新 采集 任务 ， 
根据 信 令 内 容 调度 、 控 制 Heritrix 完成 采集 任务 。 采 
集 信 令 是 分 布 式 采集 框架 的 关键 设计 环节 , 其 中 包括 : 

(1) 站 点 的 唯一 标识 ID: 用 于 中 控 服 务 器 统一 分 
配 回收 采集 任务 。 

(2) 采集 入 口 URL ( 即 Seed URL): 通知 采集 节点 
从 此 URL 开始 采集 任务 。 

(3) 采集 限定 范围 : 告知 采集 节点 采集 网 站 子 域 
名 、 子 目录 的 规则 以 及 域名 外 链 URL 的 采集 规则 , 采 
集 节点 明确 规则 以 外 的 URL 停止 采集 。 

(4) 采集 速度 及 服务 器 压力 参数 : 采集 一 个 站 点 
的 线程 数 , 采集 一 个 URL 的 延迟 时 间 ( 以 缓解 对 方 服 
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务 器 压力 )。 

(5) 站 点 采集 频率 : 根据 站 点 的 内 容 发 布 周期 确 
定 多 长 时 间 对 站 点 完成 一 次 采集 ,归档 存储 站 点 新 发 
布 或 者 修改 的 内 容 页 面 。 


果 汇 集 问 题 。 

(3) WARC 文档 分 散 存储 策略 

长 期 采集 大 量 站 点 ， 必 须 对 采集 资源 实施 存储 管 
理 , 因此 笔者 制定 了 存档 服务 器 的 存档 目录 按 年 月 进 


(6) 针对 目标 站 点 的 个 性 化 配置 : 包括 连接 响应 
等 竺 时间、 回话 保持 时 间 、 最 大 下 载 文件 限制 、Cookie 
管理 等 , 以 目标 站 点 规定 的 合法 方式 获取 数据 。 

4.5 功能 扩展 以 提升 流程 自动 化 程度 

(1) 中 心 管理 服务 器 的 自动 任务 调度 

NSL-WebArchive 需要 进行 大 量 的 采集 任务 配置 、 
管理 周期 性 运行 调度 以 及 质量 检验 ,如 图 6 所 示 ,， 中 
心 管理 平台 通过 任务 调度 机 制 实现 了 大 量 任务 周期 性 
运行 调度 的 自动 化 , 基本 上 种 子 站 点 经 过 一 次 配置 即 
可 开始 周期 性 采集 。 同 时 能 够 对 采集 线程 实时 监控 状 
态 ， 及 时 收集 和 分 析 采 集 日 志 。 
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Cather 


届 你 位置 : 


序号 站 点 名 称 
1 下 要 生物 做 科技 术 平 台 oe 
2 全 于 风能 和 事 全 Global Wnd Energy Council httpl ew gec nt 
3 。 国际 能 尖 轩 光伏 系统 执行 协议 
4 美洲 估 抽 联盟 


8 欧盟 气 能 协会 

9 印 穴 新 能 源 和 可 再 生 能 源 部 

10 ”国际 氢 能 协会 
共有 419 过 记录 ， 当 亲 第 17 页 


图 6 中 心 管理 平台 

这 种 任务 调度 机 制 需要 管理 员 指 定 每 个 站 点 的 采 
集 设 置 , 包括 采集 深度 、 采 集 频率 、 最 长 的 采集 时 间 、 
最 大 的 下 载 量 、 最 大 跳 转 次 数 、 路 径 最 大 深度 等 。 管理 
服务 器 通过 设置 定时 器 实现 周期 性 的 采集 任务 生成 。 

(2) WARC 文档 自动 汇集 策略 

采集 客户 端 采用 模块 化 的 工作 流 机 制 循环 执行 采 
集 任务 ,从 主动 获取 采集 指令 到 发 送 采集 结果 报告 ， 
整个 流程 包括 多 个 功能 模块 。 客 户 端 增加 了 自动 收集 
归并 模块 解决 WARC 文件 的 自动 收集 问题 。 

采集 客户 端 监测 到 采集 任务 结束 后 ， 即 调用 归并 模 
块 将 WARC 文件 通过 FTP 方式 传送 到 指定 的 存储 节点 
目录 下 ， 上 传 成 功 后 , 将 本 地 的 WARC 文件 删除 ,同时 
还 将 Heritrix 生成 的 job 文件 夹 下 相应 的 日 志文 件 也 通过 
FTP 方式 传送 到 管理 服务 器 的 job 文件 存储 目录 下 。 

该 模块 的 增加 不 但 解决 了 Heritrix 远 程 存储 的 问 
题 , 也 解决 了 利用 多 个 Heritrix 进 行 分 布 式 采集 时 的 结 


有 现代 图 书 情报 技术 


行 分 目录 存储 , 确保 每 个 存档 目录 不 会 太 大 , 便于 长 
时 间 的 保存 及 备份 管理 。 

(4) 错误 报告 机 制 

采集 客户 端 增加 了 采集 情况 报告 模块 , 在 采集 任 
务 完成 或 中 断后 (如 采集 陷阱 、 种 子 变更 导致 中 断 ), 用 
于 自动 分 析 Heritrix 的 采集 日 志 , 包括 : 

QO 基本 采集 情况 报告 模块 : 当 采 集 任务 结束 后 ， 读 取 采 
集 任务 文件 夹 下 Heritrix 生成 的 crawl-report， 获取 采集 所 用 
时 间 、 采 集成 功 URL 数量 、 采 集 失 败 URL 数量 、 下 载 数据 
量 等 信息 ， 并 将 这 些 信 息 存 入 管理 数据 库 。 

@) 高 级 采集 情况 报告 模块 : 为 了 查看 更 加 详细 的 采集 
情况 , 如 HTTP 状态 码 对 应 的 URL 数量 和 所 占 比 例 、 采 集 
的 文档 类 型 对 应 的 URL 数量 和 所 占 比例 、 种 子 采 集 情 况 、 
采集 URL 列表 和 一 些 错误 信息 等 ， 本文 对 Heritrix 采集 报告 
部 分 的 源 代 码 做 了 部 分 修改 , 利用 每 次 生成 任务 的 job ID 号 
构造 URL 链接 到 Heritrix 的 统计 界面 ， 查 看 每 次 任务 采集 的 
详细 信息 统计 情况 。 

4.6 构建 规范 的 文件 命名 体系 

分 布 式 Web 存档 系统 中 有 4 种 文档 命名 需要 规范 。 

(1) 种 子 文件 命名 

对 每 个 站 点 进行 采集 都 会 生成 一 个 种 子 文件 , 用 
来 保存 采集 的 站 点 地 址 ,Heritrix 根据 种 子 文件 确定 要 
采集 的 站 点 。 

种 子 文件 的 命名 方式 定 为 : 站 点 域名 -seeds.txt。 

(2) 配置 文件 命名 

对 每 个 站 点 进行 采集 参数 的 配置 都 会 生成 一 个 配 
置 文件 , Heritrix 根据 配置 文件 对 站 点 进行 采集 。 

配置 文件 的 命名 方式 定 为 : 站 点 域名 .xml。 

(3) 任务 文件 夹 与 任务 文件 命名 

每 个 任务 都 会 生成 一 个 任务 文件 夹 , 存放 采集 的 
日 志 信 息 和 报表 等 。 为 了 更 好 地 管理 任务 , 需要 对 任 
务实 现 按 月 存放 , 因此 在 任务 文件 夹 下 按时 间 年 月 生 
成 新 文件 夹 用 来 存放 当月 的 采集 任务 。 

每 个 文件 夹 的 命名 方式 定 为 : 年 月 。 如 : 201403、 
201404、201405。201403 文件 夹 下 存放 2014 年 3 月 
采集 任务 生成 的 任务 文件 夹 。 

任务 文件 的 命名 方式 定 为 : 站 点 域名 -时 间 戳 。 

需要 说 明 的 是 , 每 个 站 点 域名 是 设置 的 任务 名 称 ; 


任务 文件 夹 生成 时 间 采 用 UTC 时 区 (加 8 个 小 时 是 北 
京 时 间 ), 格式 为 : yyyyMMddHHmmss。 

(4) WARC 存档 目录 及 WARC 文件 命名 

在 存储 节点 上 ，WARC 文件 被 指定 存放 在 /mntl/ 
WARCs 下 。 为 了 实现 按 月 存放 , 需要 采集 客户 端 在 上 
传 数据 时 , 在 /mntl/WARCs 下 自动 新 建文 件 夹 ， 每 个 
文件 夹 以 存档 的 年 月 命名 ， 如 : 201403 、201404 、 
201405。201403 文件 夹 下 存放 2014 年 3 月 采集 的 所 
有 WARC 文件 。 

WARC 文件 的 命名 方式 定 为 : 站 点 域名 -WARC 
文件 生成 时 间 - 序 列 号 -采集 机 器 的 Hostname。 

每 个 站 点 的 域名 是 WARC 文件 的 前 缓 ; 

(WARC 文件 生成 时 间 采 用 UTC 时 区 ,加 8 个 小 时 是 
北京 时 间 , 格式 为 yyyyMMddHHmmss; 

图 序列 号 是 每 一 次 采集 任务 生成 的 多 个 WARC 文件 的 
序号 。 由 于 预先 定义 了 WARC 文件 的 大 小 ， 如 限定 一 个 
WARC 文件 大 小 不 能 超过 1 GB， 当 一 次 任务 采集 的 数据 小 
于 1 GB 时 就 只 有 一 个 WARC 文件 , 序号 为 0000; 当 大 于 
1 GB 将 被 拆 分 为 多 个 文件 ,顺序 采用 0001、0002， 以 此 类 推 ; 

(@ 采 集 机 器 的 Hostname 是 WARC 文件 的 后 级 。 

例如 ， 要 采集 的 站 点 的 英文 名 称 为 International 
Association for Hydrogen Energy, 网 址 是 http://www. 
iahe.org/, 按照 上 述 命 名 方式 生成 各 类 文件 命名 如 下 : 

(1) 种 子 文件 : www.iahe.org-seeds.txt; 

(2) 配置 文件 : www.iahe.org.xml; 

(3) 任务 文件 夹 : www.iahe.org-20140323084011; 

(4) WARC 文 件 : www.iahe.org-20140323084024- 
0000-Hadoop-master-180.WARC.gz。 
4.7 基于 WARC 内 容 抽取 的 内 容 获 取 服 务 扩 展 

考虑 到 检索 服务 和 浏览 服务 的 扩展 需求 ， 
NSL-WebArchive 利用 Wayback 底层 代码 中 对 WARC 
文件 内 容 进行 解析 的 三 个 类 : WARCReaderFactory、 
WARCReader 、WARCRecord, 将 其 中 的 get(String 
warcFilePath) 、getHeader() 、read() 方 法 分 离 封 装 成 独 
立 的 模块 , 用 于 WARC 文档 内 容 解 析 与 抽取 ,具体 技 
术 实 现 细节 将 另外 撰文 详 述 。 

目前 NSL-WebArchive 已 经 初步 实现 对 WARC 文 
ee 利用 Solr 技术 建立 基于 内 容 的 分 面 索 

， 实现 对 存档 资源 基于 内 容 的 检索 , 同时 利用 中 心 
0 还 能 提供 基于 时 间 、 学 科 、 
资源 类 型 的 存档 站 点 分 面 功能 ,如 图 7- 图 9 所 示 。 利 用 
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管理 统计 信息 , 为 每 个 种 子 站 点 提供 采集 统计 信息 。 基 
于 WARC 的 内 容 抽取 丰富 了 检索 和 访问 服务 , 也 为 今后 
提供 基于 内 容 的 深度 挖掘 和 分 析 服 务 打下 良好 基础 。 


岂 宣 国际 重要 科研 机 构 信息 Web 存 档 


WE 


图 7 NSL-WebArchive 的 访问 服务 首页 
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图 8 NSL-WebArchive 的 站 点 浏览 页 面 


图 9 NSL-WebArchive 的 分 面 检索 结果 浏览 


效果 分 析 


目前 整个 NSL-WebArchive 平台 基本 完成 , 228 个 
科技 网 站 进入 周期 采集 存档 。 截至 2014 年 9 月 , 存档 
数据 总 量 为 1.1 TB (压缩 )，WARC 文档 总 数 为 1 200， 
存档 URL 总 数 为 11 392 701, 采集 资源 格式 分 布 如 图 
10 所 示 。 根 据 2014 年 9 月 的 采集 日 志 ,， 有 170 个 站 点 
可 以 自然 结束 有 58 个 站 点 被 规则 中 断 ( 仆 行 时 间 >7 
天 或 下 载 量 >70GB), 需要 人 工 查看 判断 。 在 24 个 采集 
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客户 端 同步 采集 的 情况 下 , 约 40 天 左右 时 间 完 成 一 次 
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图 10 总 体 存 档 资 源 格式 分 布 图 
以 2014 年 10 月 27 日 采集 的 www.iiasa.ac.at 为 例 : 
(1) 试图 采集 URL 总 数 : 49 507。 
(2) 采集 成 功 URL 数 : 48 517, 主要 状态 如 表 1 所 示 : 
表 1 采集 成 功 的 URL 主要 状态 分 析 


状态 码 URL 数量 ”比例 状态 码 舍 义 
。 请 求 已 成 功 ,请求 所 希望 的 响应 头 
200 全 00 88.8% 或 数据 体 将 随 此 响应 返回 


没有 找到 ， 请 求 失败 ， 请 求 所 希望 
得 到 的 资源 未 在 服务 器 上 发 现 


跳 转 ， 被 请 求 的 资源 已 永久 移动 到 
新 位 置 

跳 转 ， 请 求 的 资源 现在 临时 从 不 同 
的 URI 响应 请 求 

禁止 , 服务 器 已 经 理解 请 求 , 但 是 
拒绝 执行 

(3) 采集 失败 URL 数 : 990, 原因 有 待 进一步 分 析 。 
(4) 采集 所 用 时 间 : 3d23h12m53s937ms ( 约 4 天 )。 
(5) 采集 数据 量 : 20 GB。 

(6) 平均 每 秒 下 载 量 : 62 KB。 

(7) 疏 行 Host 数 : 24。 

(8) 采集 格式 分 析 如 图 11 所 示 : 


1% 
2% 
加 html 页 面 
目 文档 (pdf,doc,txt.ppt) 
目 图 片 Gpg.gibpng) 
目 cSS 样 式 
HA 目 js 脚本 


404 2 466 5.1% 


301 1 508 3.1% 


302 1301 2.7% 


403 108 0.2% 


目 其 他 


图 11 


示例 网 站 一 次 采集 资源 格式 分 布 图 


本 现代 图 书 情报 技术 


总 体 上 取得 了 较 好 的 效果 : 

(1) 采集 管理 系统 提供 了 丰富 的 站 点 管理 信息 ， 
基本 上 做 到 一 次 配置 即 可 周期 性 采集 ， 可 以 对 种 子 站 
点 的 采集 效率 实现 稳定 控制 ,实现 了 采集 存档 的 有 效 
管理 。 

(2) 扩展 框架 从 理论 上 看 , 采集 的 三 个 层面 可 以 
实现 无 限 平行 扩展 。 目 前 在 4 台 服 务 器 上 部 署 了 24 
个 采集 节点 , 实现 了 分 布 式 采集 , 并 保障 了 良好 的 可 
扩展 性 。 

(3) 通过 客户 端 功 能 的 扩展 , NSL-WebArchive 大 
幅度 提高 自动 化 程度 , 在 采集 任务 配置 、 周 期 性 运行 
调度 、WARC 文档 汇集 等 方面 极 大 地 减少 了 人 工 参与 ， 
基本 上 实现 了 包括 任务 部 署 、 采 集 、 存 档 、 索 引 、 访 
问 这 样 一 个 完整 的 自动 化 流程 。 

(4) 封装 了 WARC 文档 解析 模块 ,初步 实现 对 
WARC 文件 内 容 的 全 面 抽取 ,可 以 建立 基于 内 容 的 分 
面 索引 ,不 但 丰富 了 检索 和 访问 服务 ,也 为 今后 提供 
基于 内 容 的 深度 挖掘 和 分 析 服 务 打下 良好 基础 。 

目前 NSL-WebArchive 平台 的 种 子 站 点 数量 逐步 
增加 ， 还 需要 通过 采集 存档 更 大 规模 的 数据 以 检验 整 
个 框架 的 稳定 性 、 效 率 以 及 扩展 性 。 


6 结 语 


通过 持续 的 网 络 存 档 , 不 但 实现 (科技 ) 文 化 遗产 
的 完整 保存 , 同时 还 可 以 对 存档 资源 进行 深入 分 析 、 
挖掘 和 再 利用 ,支持 相应 科技 政策 和 技术 的 效果 评 
估 、 长 期 科技 战略 决策 、 领 域 变化 趋势 分 析 、 预 测 未 
来 发 展 趋势 等 ， 从 而 利用 存档 的 网 络 资源 更 好 地 为 学 
术 研 究 和 社会 发 展 服务 。 

通过 国际 重要 科技 机 构 网 络 信息 存档 系统 的 建 
设 , 可 以 为 科技 网 络 信息 资源 初步 提供 可 靠 的 保存 体 
系 , 对 长 期 地 利用 存档 资源 为 学 术 研 究 、 情 报 人 员 、 
科技 管理 人 员 提 供 服 务 提供 有 利 的 支撑 。 通 过 NSL- 
WebArchive 平台 建设 , 在 大 规模 网 络 存档 的 可 管理 、 
易 扩 展 、 自 动 化 和 信息 抽取 挖掘 等 方面 进行 了 初步 探 
索 。 目 前 系统 在 不 断 扩大 存档 规模 的 同时 , 也 开展 存 
档 信 息 内 容 的 深度 挖掘 、 分 析 和 再 利用 研究 ,考虑 开 
展 多 种 基于 Web 数据 分 析 的 情报 支持 服务 , 同时 也 在 
考虑 如 何 检 验 和 评价 Web 存档 的 完整 性 和 真实 性 ， 
以 确保 存档 资源 的 可 信赖 。 
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Developing Web Archive System of International Institutions Based on 
IIPC Open Source Software 


Wu Zhenxin Zhang Zhixiong Xie Jing Hu Jiying 
(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 


Abstract: [Objective] Develope Web Archive System of International Institutions. [Methods] Based on IIPC open 
source software framework, this paper applies a three layer expansion strategy in the acquisition terminal, provides 
automatical uploading and reporting function in the acquisition client, develops a WARC parser which can analyze the 
content of WARC file, uses Solr to be an indexer. [Results] This paper implements acquisition expansion, promotes 
the automatical level of system workflow by adding more function modules in the acquisition client, extracts more 
information by developing WARC parser modules, uses Solr to enrich index and retrieval service. [Limitations] Lack 
of large-scale Web archive to verify this platform. [Conclusions] The expanded Web archive framework becomes 
distributed, extended and full automatic. 
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